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Почему про 
видеоконференции? 


Сомісі 19/ Zoom-a-Zoom-Zoom Бе 


There's only one winner in the 


work-from-home meeting app wars x 
Zoom 25 

=m Microsoft Teams 

s Google Meet 

и Houseparty 2 

ин Skype for iPhone 

тшшш Discord Daily worldwide app downloads, in millions 
Google Duo 15 

шини Google Hangouts 
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Source: Арріоріа BEN SCHOTT 


ВоотЬегдОр оп 


DOWNLOADS 
TikTok 
ZOOM Cloud Meetings 
Facebook 
WhatsApp Messenger 
Instagram 


Facebook Messenger 


Google Meet 


Telegram 


Snapchat 


Netflix 


Групповые звонки и голосовые чаты в 
2020/2021 


000 өс о 
^ Какустроены Zoom / Q В гот Ці © о о 
Clubhouse? G DISCORD © G (© видеозвонки T o 


ШЕШІП СоТоМее! 
^ Что мне взять для моего е 9 dus we it slack © © зи 


сервиса / стартапа? Фе  verconterence 


Яндекс Телемост? 


Clubhouse © B 


Highfive BlueJeans 
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Как мир видеоконференций менялся 
во время пандемии 


Март 2020 
Апрель 2020 


Май 2020 
Июль 2020 
Август 2020 
Сентябрь 2020 
Январь 2021 
Апрель 2021 
Март 2021 

Май 2021 


Discord увеличил кол-во участников видеочата до 50 
WhatsApp увеличил кол-во участников до 8 
Facebook Messanger запустил Desktop app 
Clubhouse iOS app 

Бесплатная версия Google Meet 

Zoom отменил ограничение B 40 минут 

Видеочать в Discord mobile арр 

Facebook добавил Zoom, Cisco, BJ, .. в Facebook Portal 
Шумоподавление B Google Meet 

noH Mack B Clubhouse 

Facebook Hotline 

Групповые видеозвонки на WhatsApp Desktop 


Групповье видеозвонки Telegram 
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Звонки ВКонтакте 


2012 


2018 


Май 2020 


Сентябрь 2020 


2021 


Видеозвонки на вебе 


Мобильнье видеозво 


Групповье видеозвон 


нки один на один 


ки на 8 человек 


Групповье видеозвон 


ки на 128 человек 


Цель — 1000+ человек 


^ 
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Что нас сейчас ждёт? 


NACK, ЕЕС, РІС 

АЕС, NS, МАО, AGC 

MOS, PESQ, МІЗКА 

MCU, SFU, SVC, Simulcast 
DTX, FIR, I|P|B - frames 
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План 


доклада 


Теория 


Практическая часть на примере 
звонков ВКонтакте 


Подходы, позволяющие делать 
конференции Ha 1000+ и более 


Анализ подходов крупных сервисов 
Список trick'oB для видеоконференций 
Ореп-зоигсе-решения 

МЕ в звонках 


Общий подход к созданию технически 
сложных высоконагруженных продуктов 


Disclaimer 


Вьводь и заключения по конкурентам 
сделань исключительно из общедоступной 
информации, общих наблюдений и 
измерений и могут быть ошибочными. 
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Требования, или 
Чего хотят пользователи 


Какие интернет-звонки хотят пользователи? 


O1 Качественные 


С видео 


И, КОНЕЧНО, 


Безопасные ВСЁ ЭТО 
БЕСПЛАТНО! 


Без ограничений по времени 


Доступные на всехустройствах 


^ 
HighLoad++ 
HL n 


Что 
пользователи 
не любят 
больше всего 


Плохое качество аудио или 
видео 


Нестабильное соединение 


Если часто вылетает или 
зависает 


Сложный интерфейс 
Нет записи 

Греется телефон 
Некомфортно общаться 


Нет или не нравятся маски (для 
личного общения) 
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Функционал конкурентов 


Clubhouse WhatsApp Viber Fb Discord Skype Google Meet 


Число 


10K 8 50 БЕ 
участников 


(5 -250) 
о о 


Платформы 


© Ө © 
oe e o 9 9 High Res High FPS 
Запись [x] [x] e e e © локально $$ 
Виртуальнье 
фонь и маски Ө Ө Ө © Ө © © © 


› тугсеребряной пули нет 


+ 
HighLoad: 
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Требования к звонкам ВКонтакте 


^ Неограниченное кол-во участников * 


^ Работа на платформах 


0D дес 


^ Низкое потребление серверных 
ресурсов 


Высокое качество звонков 


Стабильность звонков 


Низкое потребление 
ресурсов клиента 


СДЕЛАТЬ КРУТЫЕ ЗВОНКИ! 
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Теория 


Как устроены 
любые звонки — 


Signaling 


Transport/Network 


~ Audio/Video pipeline [=] 


ЇХ Нан саа 
(но нето з 


Уровень логики — Signaling (координация участников) 


› аутентификация / авторизация 


^ распространение сообщений 
между участниками с гарантией 
порядка и подтверждением 


› установка сетевого соединения 
с сервером или между 
участниками 


^ список участников 
^ блокировки 


^ зал ожидания... 


Signaling 


„СИ СЕ 


* похож на мессенджер через WebSocket 


^ 
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Теория: 
сетевой уровень 


Сетевой уровень 


[”- So Е 


> минимальные задержки 


^ приоритетна UDP 


^ 
HighLoad: 
(н) bae > 


Характеристики сети 


› Bandwidth - Mbps 
» ВТТ- то 


> Packet loss - 9 


1 е 5 ‚м 
Client > 


— 


BW - Packets x Size / sec 
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ВТТ — случайная величина 
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4 
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Jitter — оценка изменения задержки пакетов 


-------------------------------------------5- 
—— 


minDelay maxDelay 


ЕЕЕ 
— 


Jitter - (maxDelay - minDelay) 


есть другой способ измерения B RTP из rfc 5550 (Git) нес 


Борьба c jitter’om — buffer 


Delay sow MC 


1 2 4 
Ы ШШ suffer До 
----- --- На Ши. |... ...Ч 


+40 mc 
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Борьба c Packet loss — FEC 


JL. 


BERDEL ©" 
с | 
к М 


Р = XOR(K) 3 = XOR(K-1,P) 


^ overhead даже, если нет потерь 
^ чиним фиксированный % потерь 
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Борьба Client Server 
c Packet loss | 
— FEC + NACK T Ё 


Ы okt 3-FEC 


ыы 
жанаа 
==. 


+ 
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Санкт-Петербург Красноярск 


Екатеринбург 


Челябинск Новосибирск 


ж Москва 
Минск Самара 


Акколь 
Франкфурт 
Ростов-на-Дону 


Молдова 


Грузия 
ру Шымкент 
Крым 
A бай 
ща веровиджен Киргизия 
Армения 


Хабаровск 


Петропавловск- 
Камчатский 


+ США 


Метрики сети 


Как оценить ВТТ по всем пользователям? 
99р 


600 


500 
400 
300 
Медиана 
Е = 
й | || 
0 
0,5 0,75 0,98 0,99 


перцентили КТТ по всем звонкам (а) нан соо 
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0,999 


Какая у нас сеть? 
р50 р50 p50 p50 
140 5.5 0.9 6 

мс Мбит/с % M 
р99 р99 p99 
550 0.4 2.2 

мс Мбит/с % 


bandwidth packet loss packet jitter /10s 


+ 
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О 
с 
p99 
M 


1400 


Сетевой уровень -- итого 


› 


Сеть определяется 
переменньми величинами: 
Bandwidth/RTT/Packet loss 


B зависимости OT geo ваших 
пользователей и СОМ y Bac 
будут свои цифры 


Одно ито же решение для 
звонков, развернутое в разных 
условиях, может показывать 
разные результаты 


JANOME 


Не смотрите на среднее, 
опирайтесь на медиану и 
перцентили 


Jitter компенсируется через 
jitter buffer и вызывает 
задержку 


RTT/BW можно улучшать за 
счет GEO CDN 


Packet loss чинится через 
РЕС/МАСК 
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Signaling 


Transport/Network 


~ Audio/Video pipeline се 


Audio pipeline 


Алиса Борис 
Echo Noise | Voice activity | Automatic Е 
А vd А — : ———, Encoding 
Cancellation suppression detection | gain control 
іі 
ue 
I 
Echo mul Т | - 
р Audio mixer <—— Decoding -- ЕЕС <— Jitter Buffer 4-Ң----%%-- 
Cancellation 
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Эхо 


\ | Echo 


A % | | Cancellation 


A a 4 Д] Echo | 
\ / | Cancellation 


— Encoding 


— Decoding | 


у 
HighLoad+ 
(HL) него; 


Audio pipeline 


| 
а— 


| 4- 


Echo 
Cancellation 


Echo 
Cancellation 


Noise 
suppression 


Voice activity | Automatic 


5 | - | Encodin 
detection | gain control 5 


Audio mixer 


Decoding | -—— jitter Buffer 


time stretching 


Борис 


— $ 
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Компенсация задержки 


з мс 


M ви |, Q= вин 


7-0 20 40 60 80 10 ^" 


7 0 20 40 60 80 10 ^" 20 40 60 80 


^ JB ускоряеттишину 


› Чем лучше VAD, тем больше можно догнать без 
искажений 

^ бопісускоряет голос 
https:/github.com/waywardgeek/sonic 
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fullband stereo 


Audio 
codec 


fullband 


super-wideband 


wideband | 


Quality 


| narrowband 


64 128 


е royalty-free, open-source 


8 16 32 
^ OPUS де-факто bitrate (kb/s) 


у 
HighLoad+ 
(HL) нечо 


Маскировка потери пакетов 


+ _ = «шшш 


Jitter 
А T КАЕ Да ЕА buffer mM Ви Ди EM Po UE 
QE MEE CNET СО 


100 100 


^ OPUS PLC хорошо чинит один пакет ~ 20MC 
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НЕ путать 


ФА 
PLC (Packet Loss 


Concealment) — маскирует 
потери пакетов. 


p. d 


2:9 


FEC — избыточное 
кодирование для 
исправления ошибок. 
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Time stretching 


Input delay 

80 4— me 

60 се. 
> е > 
а 10 5 PLC | Silence [Pessimism Acceleration 
$ Еј 

= | 
20$ е е. е е o e о ө ө o 
о 
0 100 200 300 
time time 


^ Гахепсуув distortion tradeoff 


(нг) НЕН оасн+ 
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АЕС, NS, МАР, AGC 
Time-stretching 
JB yMeer догонять на тишине 


Чем лучше VAD, тем больше 
можно догнать без искажений 


Tradeoff между latency и 
количеством искажений 


OPUS умеет PLC и ЕЕС 


Теория: video 


Video codec 


I-frame delay 


FIR — Full Intra Request 


HL) HighLoade- 


Весна 2021 


Codecs 


ГЕЙ VP8 VP9 АУ1 


HL) HighLoad++ 
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I|P|Bframes 
FIR — Full Intra Request 


Codec ато tradeoff между 
CPU и Traffic 


WebRTC — Web Real Time Communication 


Browser A RTP transport Browser B 
0 Media Stream Audio Audio Media Stream q 
— — US “.4---::::::-5: па ——- — —— a 
У Track pipeline pipeline Track 
Ен Media Stream Video Я a Video Media Stream 
> Track >| pipeline Б" pipeline - Track й 


^ Сетевойуровень 

^ Audio /video pipeline 

^ Единственное решение, работающе B web-6paysepax 
^ Нереализует сигналинг и топологию 
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Сигналинг 


Установка транспортного 
соединения 


Обмен доступньми кодеками 
Кодирование видео / аудио 
Отправка в сеть и адаптация 
Починка пропажи пакетов 
Компенсация задержек 


з» видеоконференция 


Оценка качества 
звонков 


Какие интернет-звонки хотят пользователи? 


«У 


КАЧЕСТВЕННЫЕ 


% 
ответили 80% респондентов менте? 


LA HighLoad 
(HL) него; üi 


Оценка качества звонков 


Original source CeTb 


Echo 
Cancellation 


Noise Voice activity | Automatic | з 
| б А — Encoding ———> eee 
suppression detection gain control | 


$— 


Degraded source 


1) ж- ване ‹4——— Audio mixer <— Decoding | КЕС Jitter Buffer че еее 
| Cancellation | 


ade 
1 


MOS — mean opinion score BCE ЛО 


» 


референсная метрика 


Rating 


5 


—-|mio|- 


HAYKE 

Label 

Excellent 

Good ра Rn 

== MOS = = 

air 

Poor 

Bad 
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PESQ MOS — 
Perceptual Evaluation of Speech Quality 


Original Degradated 


Source Full Source 
Pipeline 


Subject Model 


Г\ HighLoad 
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Метрики оценки качества звонков — NISQA 


^ 14,000 примеров ?6 потерь NISQA PESQ MOS 
c packet-loss, 5% 45 вр 
background noise и 10% 54 24 
примеры из Zoom, 
Skype, WhatsApp Бү 2 18 
20% 14 15 
^ 97,000 MOS 
: 25% 12 12 
рейтингов 
50 96 0.9 1.0 


^ Считается на порядки быстрее РО! ОА и быстрее РЕЗО MOS 
^ Метрика работает на речевых сигналах — использовать после VAD'a. 
> https //github.com/gabrielmittag/NISQA 
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a? 


Transport/Network 


~ Audio/Video pipeline ГЕ! 


Как из рер сделать групповые звонки 


2:6 1 Ж ty 
2-1 ҒА Ci Bw SE 


MESH MCU — MIX SFU — FORWARDING 
Multipoint Selective 
Conferencing Unit Forwarding Unit 


Г\ HighLoad 
oe 


Сравнение топологий на 4 участника 


2 % ^ 
= i i 
ча“ eu 

MESH у > И мтх а FWD — 
z m P ase 
а, е > % S. 
so *—— dh ги «бів gu У Y в 

in/out streams 5/5 1/1 5/1 


SIP / live — * — 


- 50 


^ 
HighLoad: 
(HL) pay ці 


Ошибки 


Ошибки выбора топологий: full mesh > -8 


МЕ НАДО 


ТАК 
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Serverless — forwarding broadcast 


HE НАД9 


< a 
ez Аҙ 
12% 
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VOIP over TCP 


Если PL=O% Jitter-O BWe=const 


TCP против UDP или будущее сетевых протоколов 


habrcom/ru/company/oleg-bunin/blog/461829/ 
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Формальная 
постановка задачи 


min задержка 


Качество 


min искажения 


min потребление ресурсов 


Что влияет 


на качество 


Сеть пользователя: 
BW/RTT/PL / Jitter 

Устройство / браузер 

Доступнье ресурсь на клиенте 


Количество участников в звонке 


На что 
влияем мы 


Алгоритмы сетевого уровня 
Audio / Video pipeline 


Jitter buffer и алгоритмы 
компенсации задержки 


Audio / Video adaptation 


Топология групповьх звонков 


Формальная постановка задачи f (x ) 


Многокритериальная оптимизация: 


min | задержка(Х, V), искажения(Х, У), потребления ресурсов(Х,У) }, 
Х,У 


, 


rne: 


X = (BW, RTT, PL, Jitter, Device(CPU, OS, GPU, Resolution) | BROWSER, 
заряд 6arapeu, перемещение B пространстве, количество участников, ...) 
V = (ЕЕС, NACK, СОМ, V/A ADAPTATION, TIME-STREATCHING ,CODECS, TOPOLOGY} 


Для всего пространства X, ограниченного 99-ым перцентилем 


количество участников [1,1000+] 
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Практика 
и Tricks 


Tricks и зоны 


Бери и Анализ метрик Tradeoff bi 
применяй итесты и перцентили 
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Аудиотопология 


SFU — audio forwarding 


: "input traffic 
client CPU 


о 

р 

5 

с [ет 

m о 

Ф 

Ф 

5 SIP / live = 

© 

о („СИ тах webRTC (max БО 
5 рагіїсірапів decoders) 
> 


* Без аудиомикса на клиенте нужно М-1 декодеров 
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MCU — audio mix 


Server-side mix | 


Microphone inputs 
n 
6 ~ 
запазпо аехегав 


^ вычитаем, иначе будет эхо 


+ 
HighLoad: 
(HL) нето и 


Jitter buffer и time stretching 


Запомну? 


+ EN = EFE EE 


Jitter 
Дй P M Не buffer Eu Mun or Pas P Р 
EU REL NEP wes m cr S е -- та 


100 100 


1 Выравнивает аудиопакеть по времени 
2. Восстанавливает потери — PLC, FEC 
5. Компенсирует задержку 


LA HighLoad 
(ну) exon 


SFU(forwarding) vs MCU(mix) 


и / Client | 
ыы 
of — =й 
elün oa. JE 
GS | + | 


СУ мр 


^ много ресурсов на клиенте, 
БО+ не смиксуем 


қаша E | | 

кы RERUM JB 

оГ? ОЕ) 

c | 

бета га r1 Lr = 


> 2 jitter buffer — выше 
задержка 
(Soon 


На всех клиентах один audio поток 
У каждого voip инженера — свой JB ) 


СРО на одного участника: 


Ито ГО decoding 0,04 CPU 
mix « CPU 
encoding O,04 CPU 


audio MIX 


Задержка: 
тіх 
JB зависит от клиента 


Audio tricks 


ў т Ка 
Настройка кодирования под битрейт м 
^ WebRTC — const audio bitrate 
^ AudioNetworkAdapter 


^ Передаем ргособив-конфигурацию в 
googAudioNetworkAdaptorConfig 


^ https //github.com/itsi/webrtc/blob/master/modules 


audio coding/audio network adaptor/config.proto 
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packet-loss ^ | 


|--------------- > bandwidth 


DTX | NO DTX 
mono | stereo 


Никки SOE » bandwidth 


“nr 


Адаптивный Forward 
Error Correction при 
больших потерях 


Не отправляем 
пакеть, 
когда участник молчит 


^ 
HighLoad: 
(HL) нето T 


Результаты 


mobile* 


Ё. 


Audio bitrate adaptation 
adaptive FEC (no NACK!) 
Packet size adaptation 


adaptive DTX | Mono 


По мобильным клиентам: 
PL -50% 
RTT —20% 
wifi: 220ms —> 170ms 
LTE: 255ms -» 205ms 
5G: 470ms -> 56Отз 


Практика: 
audio pipeline 


Audio pipeline 


Acoustic Echo Cancellation 

Automatic Gain Control 

VK Voice Activity Detection 

VK neural network noise suppression 


Audio encoder (Opus) 


ЇХ HighLoad 
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E. 


WebRTC МАР на GMM 
WebRTC NS — heuristics algorithm 


Зачем CBOM Чем лучше NS и VAD, тем: 
N S Vi VAD? меньше передаєм трафика, 


меньше mix AM, 


JB догоняєт без искажений, 


не мешаєт шум. 


МАО на градиентном бустинге 


out 


1 
api 


0000 


На сложном тесте при 
false rejection - 176 


^ GMM@WebRTC 


false acceptance = 85% 


^ CatBoost@VK 


false acceptance = 55% 
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Бал 


Требования к технологий шумоподавления 


› 


› 


7 


RealTime 


Delay «- 20ms 


Качество 
шумоподавления 
науровне SOTA 


геї krisp.ai 


› 


› 


min CPU 
min ROM 


[5 
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Замеры 


Наша нейросеть в сравнении с другими популярными решениями 


РЕ5О ROM 


Исходный сигнал 


webRTC 

RNNoise 195 0,55 M6 
NSNet 2,05 11 Мб 
DTLN (baseline) 241 5,9 M6 


DTLN (VK) 2,54 5,5 M6 


РЕ5О-метрика ж 
экспертной оценке 
по шкале от1 (плохо) 
до 5 (отлично). 


ROM влияетна 
размер 
приложения. 


E 


Своя реализация БТЕМ-подобнои 
архитектуры на С++, которая работает 
быстрее: 30 мс за -0,2 мс 


Используем окно 50 мс и перекрытие 
20 мс для бесшовной интеграции с 
WebRTC и Opus 


Модель 5,5 Мбайт 


Отстаёт по качеству от лучших моделей 
не более, чем на 109 


Шумодав 


On-demand закачка на телефон 


В течение месяца будет статья на https:/habr.com/ru/company/vk, 


аудиотрафика 
ускорений с искажениями 


качества по PESQ 


” 


^ Клиентский CPU 


^ Browser 


Г\ HighLoad 
MS 


Клиентский шумодав, jitter 1 CPU 


Запуск шумодава 


01:00 0200 0300 0400 0500 0600 0700 0800 0900 1000 1100 1200 1300 1400 1500 1600 1700 1800 1900 2000 2100 2200 2300 2400 


Искажения для компенсации задержки Ha cepBepe 


у 
HighLoad+ 
(HL) него; 


p75 audio jitter 


from client 


to client 


x M о о о ЫЫ АША Решение 
^ native audio pipeline 


^ backpressure CPU 


£^ (батарея) 


~ всегда смотрите метрики 


и 
HighLoade 
(HL) нес: 


Какие catBoost'bi и нейросети в браузере? 


Acoustic Echo Cancellation 


Audio encoder (Opus) 
Audio decoder 
Automatic Gain Control 


VK Voice Activity Detection 


VK neural network noise suppression 


> ОЛСРУнаговорящего пользователя после VAD cx», 
^ WASM е 


Г\ HighLoad 
(HL) него; з 


на пользователя 


Audio 


pipeline: 
результаты 


качества по PESQ 


меньше аудиотрафика 


% 


Какая унас задержка на сервере 
| 
p50 Соризм 


60 


p99 


500 Mm 
MC latency 


20 


passthrough 
latency 


^ 
HighLoad++ 
HL ры Аты 


Где мы находимся 
относительно конкурентов? 


Как померить аудиозадержку? 


^ 
HighLoad: 
HL Puer ці 


Измеряем mobile latency 


cS|-—«-- 4 

playback 

i uu SCRIPT 
B> т 

9 


LA HighLoad 
MIS 


Как измерить desktop latency 


14 g MOS TEST 
playback record > SCRIPT 


Virtual Audio Cable (VAC) 
https://vac.muzychenko.net/en/index.htm 


LA HighLoad 
(HL) него; М 


Сравниваем с конкурентами 


Delay minus MOS # of delay 
loopback “ө jumps 


loopback, no VOIP 


ES «е ик 


Google Meet 18,5 
Viber 255 221 15,8 
WhatsUp 558 2,59 114 
Skype $85 22 177 
ZOOM 428 212 191 


Discord 496 165 
(ну) еше 


Теория 


2. „0 E 
О” “es OQ se 


max participants оо ~ 50 


uses in Google Meet, VK Zoom 


chrome:/webrtc-internals 
https//zoom.us/docs/doc/Zoom Global Infrastructure.pdf 


Г\ HighLoad 
MIS 


Практика -- групповой звонок 


Google meet 
VK (web - 

native client) 431 
VK (web) 454 


Zoom (йө - 
native client 
Теория | Google Meet, VK Zoom 


Zoom (web) 


o 


200 400 600 800 


“сеть до сервера выровнена 
ЇХ HighLoade- 
(HL) нечо 


Audio Trick 


Теория Google Meet, VK Zoom 


max participants oo „~ 50 


ВСЕ СРАЗУ НЕ ГОВОРЯТ 


з чистьй SEU — низкий latency 


- чем больше участников говорит и шумит, 
тем выше Bitrate (нужны хорошие NS, МАР) 


^ 
HighLoad: 
(HL) нето і 


Выводы 


MCU/Mix дольше не всегда 
Не все решает топология 


Мывыненауровне рынка по 
latency, # of delay jumps и MOS 


Экономим сеть и CPU 
пользователей 


Видео 


Video MCU — mix 


tog 
8771 


MCU — МІХ 


Multipoint ОЧЕНЬ ДОРОГО 


Conferencing Unit 


Г\ HighLoad 
(HL) него; ido 


SFU 


00000000 
РИ, 


^ ЕТЕ storm 


ninm ^ Bandwidth 
network ^ adaptation 


Г\ HighLoad 
(HL) него; ці 


Simulcast транскодирование видео 


ООО 
= 
= E p Low Res 
° 
чт Ра 
= Ија О 
©) - Low res > —HQ — (ПБ 
С) = Min Res > қ. Cj 


Min Res 
БЫ ^ Bandwidth adaptation + 
(0 ^ FIR Storm +/— 
= ^ Много клиентских 
ресурсов - 


^ 
HighLoad: 
(HL) него; и 


SVC 


ООО 
— 
= Ep Low Res 2 
е 
(~: о• /Ј ж 
Ol зо О 
- Low res + 
= Min Res > —HQ — 
© ~ О 
› Bandwidth adaptation + Міп Вез 
> FIR Storm - = 


> Меньше CPU/Traffic чем Simulcast й 


^ Неподдерживаєтся в браузере 


^ 
HighLoad: 
(HL) него; и 


Серверное транскодирование видео 


^ Bandwidth adaptation + b" = 
OUO, 


› FIR Storm + (генерируем на сервере) 


» дорого- 


Г\ HighLoad 
(HL) него; з 


Quality on-demand 


Качество по запросу 


2-8 
p-m 


2 =E 


Переменное 


------» 
качество 
исходящего видео 
[bytesSent in bits/s] -— frameWidth frameHeight 
Минен ок E и 
воо 300 
| | 600 k 
400 200 
400 k 
200k 200 100 
ok о о 
173700 17:38:00 173900 174000 174100 180400 180500 180600 180700 18:08:00 ^ 180400 18 


18:04:00 18:05:00 18:06:00 18:07:00 18:08:00 


webrtc-internals 


^ 
HighLoad: 
(HL) Нета и 


Ща 


по запросу 


Экономим: 


лт, 
т 


къ 2190 client CPU. 


server CPU. 


гі 


Ото в самом неоптимальном 
случае на 5 участника! 


Ло client>server traffic. 


4. 


FA 
Серверное транскодирование по запросу ~ 


Low Res 


сә 
— Min Res > Le — Min Res > c2 Экономим: 
СО z ON 


Min Res Te Е 40% не нарезается 


E см 


Г\ HighLoad 
(HL) него; i 


Simulcast vs SVC vs 
Quality on-demand (QOD) 


Simulcast vs SVC vs Quality on-demand (QOD) 


SFU Simulcast svc QOD 


LA HighLoad 
(ни) него; il 


Вьбор кодека 


Настройки кодека — это компромисс 


= 
о 


^ 
HighLoad: 
a 


Качество и нагрузка на устройство 


Н.264 — быстрый, 


аппаратно-ускоренный 
кодек на iOS и Android 


VP9 — более новый, но 


пока не ускоренный 
аппаратно кодек 


0 500 1000 1500 2000 0 500 1000 1500 2000 


Bitrate, kbps Bitrate, kbps 


= Quality = Device load 


^ 
HighLoad: 
(HL) него; m 


Переключаєм кодеки по битрейту 


Adaptive VP9/H.264 


0 500 1000 1500 


= Quality = Device load 


2000 


Если битрейт вьше порога — 
H.264, если ниже — VP9: 


^ негреемтелефонна 
вьсоких битрейтах, 


› вытягиваем качество 
на низких. 


Г\ HighLoad 
(ни) него; m 


Міаео 
transform оп 


па: результать 


отдача КІВ с сервера 


медиана video passthrough 
-4Омс 


на пользователя: 
0,54 СРО на видео 
0,09 CPU на аудио 
on-demand H264, VP8, VP9 


Где мы находимся 
относительно конкурентов? 


Оценка задержки видео 


ит Ш ји й 


М 
а = 
Һ.21500:0 EL 000045204 c , = = 288 с 


JN ien TEN 


Результаты оценки задержки по видео 


Desktop Desktop throttled Mobile 

VK VK VK 

(Web) (Web) (Mob) 

Skype VK 

(Desktop) (Native) Google.Meet 
(Mob) 

Google.Meet Skype 

(Web) 350 (Desktop) Zoom 
(Mob) 

VK Google.Meet 

(Native) 364 (Web) 

2 FB MSNG 

‘oom FB MSNG Mob; 

(Desktop) 457 (Web) nd 

FB MSNG Zoom Skype 

(Web) 644 (Desktop) (Mob) 

0 200 400 600 0 200 400 600 0 200 400 


^ * Сеть выровнена по сервисам 
^ Мы везде лучшие — почему? 


^ 
HighLoad: 
HL n m 


Синхронизация 
звука и видео 


Lipsync 


15-191 15-191 
е е 
6.1080 G.1080 
е е 
TR-126 TR-126 
BT.1359 е е ВТ.1359 
ВТ.1359 Е tabl: 
(acceptable), . ee 1359 «(ассерга е) 
е 4 е . e 
Steinmetz Steinmetz Steinmetz Steinmetz 
(annoying) (acceptable) (acceptable) (annoying) 
. . 
Сигсіо Сигсіо 
° ° 
Ford Ford 
е 
Younkin 
; А у В В у E А у қ І o з зо Ж WES о а ы G3 
%%%%%%%%%%%2%%%%%%%%%% 


Audio/Video delay (in ms) 


audio delayed with respect to video audio ahead of video 


отставание звука MeHee заметно, чем опережение 


^ He мешает [-100ms, «60ms] 
HO менее» 


Lipsync 


^ Немешает audio delay [-1ООтз, «60ms] 


audio passthrough video passthrough audio delay 


p50 60 ms 40 ms —20 ms 


p99 


^ Не делаем lipsync на клиенте 


Г\ HighLoad 
(HL) него; и 


Архитектура 
решения и 1000+ 


ZooKeeper 
(Hosts Coordination) 


Transform 


Conferencing 


Е Client media 
exchange 

puc | 

Client Connections = 


mgmt Client Media Relay ilias Deo 


Transcoding 


Host Load info 


Be" 


>» Signaler: websocket, Apache Tomcat, NFWare, Cassandra 
> Conferencing: java, WebRTC, 951 Вбалансировка 


> Transfrom <> Conferencing: custom ТСР 


HL) HighLoad++ 


Becta 2021 


Скалирование одного звонка на любое М серверов 


ЕЧ: летото = d 
High Quality 
(SRTP) 


High Qulity 
(SRTP) 


LA HighLoad 
(ни) него; € 


Отказоустойчивость 


ZooKeeper | 
A 


(Hosts Coordination) № 


Signaler Transform 


Conferencing 


[=] 


Client media 
exchange 


Client Connections 


Client Media 


Client Media Relay Transcodin 


Host Load info 


eda x 
У ^ все посинкается через ZK, дошлется из СОВ 


hLoade- 
'a202 


Уменьшаем 
latency 


TCP NODELAY 


WebRTC-cepsBep написан на Java 


Проблема: Safepoints / GC max 
50ms 


Решение: заменили дефолтный 
G1GC на Shenandoah, 
ориентированный Ha низкие 
паузы 


Conferencing тах 10 мс 
Transform max 5 Mc 


Jitsi тоже поможет ) 


Нельзя просто так взять и отправить 
Ha клиент 1000 видео 


Server 


B WebRTC одно видео — один 
«трек» со стриминг-сервера no 
клиента: 


› RTP «трек» — ото пара SSRC. 


Новый участник — дополнительная 
napa SSRC и переобмен SDP 
между клиентом и стриминг- 
сервером. 


" Браузер умирает на 50 треках. 


HighLoad: 
HL Мат i 


Слоты для видеотреков 


^ i Маппинг стримов и треков 


LA HighLoad 
(HL) него; ці 


горизонтального скалирования 
звонка 


Ha 1000+ 

- обхода ограничения на число 
не обо ИТИСЬ треков B peer connection — 
E : ез слоты 


серверной топологии SFU/MIX 


NS и VAD 


Улучшаем алгоритмы 
jb, bandwidth adaptation, time 
stretching, codec switching 


Формальное решение задачи 
f (x) 
Многокритериальная оптимизация: 


min ( задержка(Х, V), искажения(Х, У), потребления ресурсов(Х,У) }, 
V 


rne: 
X - (BW, RTT, PL, Jitter, Device(CPU, OS, GPU, Resolution) | BROWSER, 


заряд батареи, перемешение B пространстве, количество участников, ...) 


У = (VIDEO SFU - QOD, onDemans{h264/vp8/vp9}, AUDIO MIX, Opus, V/NACK, 
A/FEC, CDN, VAD, NS V/A ADAPTATION TRICKS, TIME-STREATCHING} 


ЇХ HighLoad 
(HL) него; М 


Модель, предсказывающая качество 


signal strength — —— фе 
amount of no loader freq => 
full signal << —— 
avg net error count —— ИЩ 
по signal oa 
mid_signal ===. 
avg signal strength -- 
device model il 
net error count — стр 
feed first data — > 
city => 
asn orgname —— 
geo hash = 
cold_inflate -- 94 
05 мег оп => 
avg feed first data 


median net error count week ip 


https:;/github.com/slundberg/sha 
(Qu ein 


Тестирование на 1000+ 


^ поднимаем браузеры 
на виртуалках 


ЇХ HighLoade- 
(но нечо 


Готовые 
решения 


Open-source media servers апа SDKs 


Mediasoup 


Число 
участников 
S - speakers 
L — listeners 


Архитектура 


Технологии 


75х75 30x50 SxL=500 
SFU + MCU / 
streaming SFU SFU 
Зама“, Node в, С++, 
JavaScript SUE TypeScript 


^ Незабудьте потюнить GC* 


10 +140 17 + 1M 
SFU/MCU  SFU-17 
plugins MCU - 1M 
С,С++, 
JavaScript СРИ 


1000 х 
1000 


video SFU 
audio MCU 


Java, С++ 


^ 
HighLoad: 
(ну Pei ці 


Звонки своими руками 
^ Если вам не нужно бороться за p99 и не надо больше 100 участников 


^ Open source SFU (Jitsi, Mediasoup) будет работать для 50-50 человек 


^  Шумодав — Krisp 


или 
^ Облачнье решения (Agora, Voximplant) возьмут эксплуатацию и работу c 


операторами на себя 


LA HighLoad 
(HL) него; m 


Йтого 


Что получилось и куда дальше 


Цифры 


ОО “^н день 


МАЮ Звонки 


onn? 


LA HighLoade- 
HL) нет 


Функционал и конкуренть 


SDK capacity Skype Zoom Google Meet 
Число video - 1000 BO 100 100 
участников audio mix АМ ($ —1000) ($ —250) 


ое oc o 


Платформы É в 

610 610 942 
L| ~ > нш. 

Подключение 

по ссылке © © © 

Демонстрация " AK, High Res/ " Я 

22. 4K, High Res ШЫ Меј 9 High Res High FPS 

Запись e e © локально $$ 

Виртуальнье 

фонь и маски © © © © 


ЇХ HighLoad 
(HL) него; з 


Метрики и конкуренты — крупно 


Zoom (Native) Google Meet (Web) VK SDK (Web) 


audio delay 550 ms 

video delay | 48ms | 550 ms 

video throttle | 795ms | 415 ms 
PL=50% max PL=10-20% max PL=10-20% 


^ Zoom разменял задержку на работу с высоким PL и качество (требования 
пользователей") 


^ Meet разменял задержку на работу с Web и разгрузку Мер КТСклиентов 


Г\ HighLoad 
(HL) него; и 


Настоящее и будущее 
звонков 


Как выглядят / будут вьглядеть звонки 


› МІ МАО на градиентном бустинге 

^ MLNS нанейросетях 

^ ML audio codec — Google Lyra (Skbps) 

^ Мі video codec 

> Мі улучшение изображения/лица 

^ ML оптимизация параметров алгоритмов адаптации — решающие деревья 
^ МІ Оценка качества звонков — NISKA 


^ ML починка пропажи пакетов: PLC — 2Омо, WaveNetEQ — 120Mc 


МЕ вытесняет эвристические алгоритмы 


LA HighLoad 
(HL) нес: ці 


Общий подход к решению сложных 
инженерных задач 


^ Определите требования, сделайте опрос или коридорное исследование. 
^ Изучитетеорию и формализуйте задачу. 

^ Запустите решение (можно на open-source). 

^ Соберите метрики. 

^ Определите, где вы находись относительно конкурентов. 

^ Развивайте, опираясь на эти знания и метрики. 


^ Заменяйте классические/эвристические алгоритмы на ML. 


^ 
HighLoad: 
(HL) него; m 


Главное понимать, где вь находитесь 


Complexity Zoom 


Agora 
Google Meet 


OpenSource 


Conference size 
Low-latency 
Video quality 


Г\ HighLoad 
(HL) него; ці 


Что мы вьнесли сегодня 


^ сеть: BW, RTT, PL, Jitter 


^ починка сети и компенсация задержки: 
JB, NACK, FEC vs PLC 


^ audio pipeline: AEC, NS, VAD 
> оценкакачества: MOS, PESQ, NISKA 


> Tononoruuu: MCU, SFU, SVC, Simulcast, 
QOD 


^ DTX, FIR, I|P|B - frames 


> Tricks ирешения в разных зонах 


ML +20–600%! ж? 
(н) Мелде 


Встройте звонки в свой 
Что мне сервис. 


Пройдите собеседование 


с ЭТИ M B УОТР-команду. 
дел ать? Начните свой стартап. 
<: е 


А если мне ото не надо? 


^ Почти все эвристические алгоритмы pd? PEQ, 
з 


заменил МІ: 


^ неиросети, 
^ градиентный бустинг. 


> Ото общая тенденции, мы ее 
рассмотрели на VOIP. 


^ Ввашем проекте точно есть, где НАДО 


улучшить! 
ВНЕДРЯЙ МІ! 


LA HighLoad 
(HL) него; ці 


Будем 
ВКонтакте! 


Александр Тоболь, СТО ВКонтакте 


alexandertobol@corp.vk.com 
https: /vk.com/alatobol 


